実践的なRAGシステム：知識ベースから検索拡張生成まで：本番環境での現実：密度型検索が失敗するとき

一方で密度型検索意味の意図を捉えることで検索を革新した一方、本番環境では厳しい真実が明らかになる。ベクトル埋め込みはしばしば製品IDや希少な略語、技術用語といった重要な詳細を「平滑化」してしまう。現実世界は純粋な意味論だけではなく、抽象的な意味と厳格な識別子の複雑な混合物である。

語彙的（キーワード）の利点: 語彙的検索（例：BM25）は正確な単語やフレーズの一致に対して黄金標準であり続けている。ユーザーの意図を推測しようとはせず、「あなたが言った内容そのもの」を特定する。
意味のギャップ: 密度型検索は意味の一致に非常に優れている（例：「支払いの問題」と「取引失敗」が一致）。しかし、商品コードや部品番号のような高精度なスパース信号スパース信号、例えばSKU番号や部品コードなどには本質的に苦手とする。
ハイブリッド検索の必要性: ハイブリッド検索が必要なのは、世界が純粋な意味論でもなく、純粋な語彙的検索でもないからだ。ユーザーの行動は二分されている。時折概念を探し、時折「懸賞抽選のハリボテの中の針」のような特定のトークンを探している。

技術的洞察

密度型検索は意味の一致に強く、語彙的検索は正確な単語、識別子、フレーズの一致に強い。実際のユーザーの質問は両方の能力が必要なことが多く、ハイブリッド検索が存在するのは、世界が純粋な意味論でもなく、純粋な語彙的検索でもないからである。